Подготовка чтений

1. Контроль качества чтения "fastqc chr2.fastq"

2. Очистка чтений "java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr2.fastq chr2_trim.fastq TRAILING:20 MINLEN:50"

До чистки: 10410

После чистки: 10191

Картирование чтений

hisat2-build chr2.fasta chr2 Индексирует референсную последовательность
hisat2 -x chr2 -U chr2_trim.fastq -S chr2_align.sam --no-spliced-alignment --no-softclip Строит выравнивание прочтений и референса в формате .sam
samtools view chr2_align.sam -bo chr2_align.bam Переводит выравнивание чтений с референсом в бинарный формат .bam
samtools sort chr2_align.bam sorted Сортирует выравнивание чтений с референсом по координате в референсе начала чтения
samtools index sorted.bam Индексирует отсортированный .bam файл

Число чтений, картированных на референсную хромосому: 10191

Число не картированных чтений: 47

Анализ SNP

samtools mpileup -uf chr2.fasta -o snp.bcf sorted.bam Создает бинарный файл с полиморфизмами
bcftools call -cv snp.bcf -o snp.vcf Создает файл со списком отличий между референсом и чтениями в формате .vcf

Описание полиморфизмов

Количество SNP: s49

Количество инделей: 7

Координата Тип полиморфизма Буква в референсе Буква в чтениях Глубина покрытия Качество чтений
1 55516588 Замена G C 23 184.999
2 234202274 Вставка TCC TCCC 1 3.80767
3 238454154 Замена C A 101 225.009
convert2annovar.pl -format vcf4 snp.vcf > chr2.avinput
Переводим файл .vcf формат, удобный для работы annovar
annotate_variation.pl -filter -out SR_SNP -build hg19 -dbtype snp138
chr2.avinput /nfs/srv/databases/annovar/humandb.old/
Аннотация по Dbsnp
annotate_variation.pl -out refgen -build hg19 chr2.avinput /nfs/srv/databases/annovar/humandb.old/
Аннотация по Refgene
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 
1000Genomes chr2.avinput /nfs/srv/databases/annovar/humandb.old/
Аннотация по 1000 Genomes
annotate_variation.pl -regionanno -build hg19 -out GWAS -dbtype
gwasCatalog chr2.avinput /nfs/srv/databases/annovar/humandb.old/
Аннотация по Gwas
annotate_variation.pl chr2.avinput -filter -dbtype clinvar_20150629 -buildver
hg19 -out CLINVAR /nfs/srv/databases/annovar/humandb.old/
Аннотация по Clinvar
Из файла refgen.variant_function мы понимаем, что база данных Refseq делит snp по их локализации (exonic - 6, intronic - 50, UTR3 - 7) Гены, в которые попали наши snp:
                                                                                                                                       
CCDC88A	12                                                                                                                                  
ATG16L1	29                                                                                                                                  
MLPH	22                                                                                                                                   
TRPS1	40                                                                                                                                  

Помимимо всего прочего в файлах есть информация о синониминости (несинонимичности) замен
аминокислотных остатков
У 62 есть rs

Аннотация 1000Genomes показывает частоты аллелей в output - файле
Среднее значение частоты аллелей - 29
Также, в output - файле есть информация о характере замены (что на что было заменено - в форме гэпов и/или букв-нуклеотидов)
Также указаны координаты каждой такой замены

По аннотации Gwas видим, что 3 snp связаны с каким-либо заболеванием, либо физиологическим параметром
связь геномных признаков с фенотипическими:
Болезнь Крона (2 snp) 234173503 234173503 G A

234183368 234183368 A G

Рак простаты 238443226 238443226 A G

ClinVar объединяет информацию о геномных вариациях (полиморфизмах), их отношении к здоровью человека

clinvar_20150629 CLINSIG=other;CLNDBN=Inflammatory_bowel_disease_10\x2c_susceptibility_to;CLNREVSTAT=no_assertion_criteria_provided;CLNACC=RCV000001189.2;CLNDSDB=.;CLNDSDBID=. chr2 234183368 234183368 A G het 225.009 41